快讯列表

关于 混合专家 MoE 的快讯列表

时间 详情
2025-09-22
22:32
阿里巴巴发布 Qwen3-Next-80B-A3B 开源权重大模型(Apache 2.0):262k 长上下文、MoE、Gated DeltaNet、支持多Token预测

据 @DeepLearningAI 报道,阿里巴巴发布 Qwen3-Next-80B-A3B,提供 Base、Instruct、Thinking 三个版本,采用 Apache 2.0 开源权重许可,面向更快的长上下文推理,并支持最长 262,144 Token 输入与多Token预测;来源:DeepLearning.AI 在 X,2025-09-22,https://twitter.com/DeepLearningAI/status/1970254860416131146;The Batch 综述,https://hubs.la/Q03KsR8W0。该模型为 800 亿参数的混合专家架构,多数标准注意力层替换为 Gated DeltaNet,其余采用 gated attention,基于 Qwen3 数据集的 15 万亿 Token 子集训练,并使用 GSPO 进行微调;来源:DeepLearning.AI 在 X,2025-09-22,https://twitter.com/DeepLearningAI/status/1970254860416131146;The Batch 综述,https://hubs.la/Q03KsR8W0。交易角度看,核心可量化指标包括 262,144 Token 上下文窗口、多Token预测与 Apache 2.0 开源权重许可,这些参数决定了模型的可用性与性能边界;来源未提及任何加密货币集成或价格影响;来源:DeepLearning.AI 在 X,2025-09-22,https://twitter.com/DeepLearningAI/status/1970254860416131146;The Batch 综述,https://hubs.la/Q03KsR8W0。

来源
2025-08-26
17:59
阿里巴巴发布 Wan 2.2 开放权重视频生成MoE:50亿参数文本/图像转视频模型可在消费级GPU运行,交易者需关注

根据 @DeepLearningAI,阿里巴巴发布了 Wan 2.2,这是一套采用混合专家(MoE)架构的开放权重视频生成模型家族(来源:@DeepLearningAI,X,2025年8月26日)。其中包含一个可在消费级GPU运行的50亿参数文本/图像转视频模型(来源:@DeepLearningAI,X,2025年8月26日)。MoE设置包含两个专家,其中一个用于高噪声场景,另一位专家在所提供信息中未详细说明(来源:@DeepLearningAI,X,2025年8月26日)。对交易者而言,开放权重与消费级GPU可运行的特性构成可跟踪的AI基础设施主题数据点,因更易获取的视频AI工具可能影响去中心化算力与存储等加密生态的开发与链上使用,但不构成价格影响判断(基于同一来源关于开放权重与消费级GPU支持的信息:@DeepLearningAI,X,2025年8月26日)。

来源